你的「龙虾」真记得你吗?剑桥发布长期个性化记忆基准ATM-Bench
你的「龙虾」真记得你吗?剑桥发布长期个性化记忆基准ATM-BenchATM-Bench 将「个人 AI 助手是否真的记得你」这件事,变成了一个研究的测试基准。结果并不乐观:专用记忆智能体系统普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳,最高准确率不到 40%。
ATM-Bench 将「个人 AI 助手是否真的记得你」这件事,变成了一个研究的测试基准。结果并不乐观:专用记忆智能体系统普遍低于 20%,而 OpenClaw、Codex、Claude Code 等通用智能体普遍表现不佳,最高准确率不到 40%。
最近几个月,Vibe Coding(氛围编程)是一大刷屏热词。以 Cursor 和 Claude Code 为代表的一批工具,正在将软件开发效率推向新的高度。
前几天,Anthropic 开源了 claude-desktop-buddy,用一块小屏幕显示 Claude Code 里 Buddy 的状态。结果做着做着,它变成了一个完全不同的东西:M5 Paper Buddy (https://github.com/op7418/m5-paper-buddy)。
最近,Claude Code 团队工程师 Thariq Shihipar又在X上发文了,上个月他写的Skill深度经验分享贴在社交平台爆火,这周他又发了一篇Claude的100万toke上下文窗口使用技巧的文章,平台阅读量已超过200万。
随着 AI coding agent 从 “辅助写代码” 走向 “直接执行开发操作”,模型开始被赋予修改代码、部署服务等真实运维权限。为减少频繁人工确认带来的打断,Anthropic 近期为 Claude Code 推出 Auto Mode,希望通过自动分类代替用户审核操作。
Claude Code 今天上了一个新能力:Routines,面向 Pro、Max、Team 和 Enterprise 用户开放
Anthropic正式推出了Claude Code的自动化任务功能Routines,目前处于研究预览阶段。只要配置好一次提示词、代码仓库和连接器,Claude就能在云端全自动干活了。这些任务全部运行在Anthropic的云端基础设施上,意味着完全不需要你一直开着电脑,哪怕你下班关机,它也能按时帮你处理代码积压、审查代码,甚至随时响应云端事件。
太疯狂了!Anthropic刚刚发布Claude Code新版,上线神秘功能Routine:支持定时、API、GitHub三路触发,直接变身「云端员工」。更刺激的是,Opus 4.7即将本周闪电发布,直接跨界硬刚Adobe、Figma。
新鲜大瓜!Cursor 3.0实锤套壳Claude Code。当Cursor 3.0被开发者一层层拆开,大家才猛然发现:这场翻车真正刺痛行业的,不是它用了Claude,而是它试图把别人的大脑,包装成自己的灵魂。
2025年之前,想要证明自己混得好,大概得腕上戴块百达翡丽,车库里停辆库里南。但到了AI时代,硬通货变了:看你一年到底烧了多少Token。一年烧掉250亿个Token,有位25岁的韩国小伙子,成了全世界最能烧的人。